Giải trình tự toàn bộ gen là gì? Các nghiên cứu khoa học

Giải trình tự toàn bộ gen là kỹ thuật xác định toàn bộ trình tự DNA của một sinh vật, bao gồm cả vùng mã hóa và không mã hóa trong hệ gen. Phương pháp này cung cấp cái nhìn toàn diện về biến thể di truyền, hỗ trợ chẩn đoán bệnh, nghiên cứu y học cá thể hóa và phân tích hệ gen với độ chính xác cao.

Định nghĩa giải trình tự toàn bộ gen

Giải trình tự toàn bộ gen (Whole Genome Sequencing – WGS) là kỹ thuật dùng để xác định toàn bộ trình tự nucleotide của DNA trong bộ gen của một sinh vật, bao gồm cả vùng mã hóa và vùng không mã hóa. Phương pháp này cho phép phân tích mọi yếu tố di truyền có thể ảnh hưởng đến chức năng sinh học, bệnh lý và đặc điểm của cá thể, giúp xây dựng một bản đồ gen chính xác ở mức độ từng base pair.

Không giống như các phương pháp giải trình tự có mục tiêu cụ thể như giải trình tự exon hoặc các vùng liên quan đến bệnh, WGS bao phủ toàn bộ hệ gen, từ introns, exons, đến các vùng điều hòa như promoter, enhancer và cả vùng gen chưa rõ chức năng. Điều này tạo ra lượng dữ liệu khổng lồ nhưng có giá trị nghiên cứu và ứng dụng lâm sàng cao, đặc biệt trong y học cá thể hóa và nghiên cứu bệnh hiếm.

WGS được sử dụng trong nhiều lĩnh vực như chẩn đoán di truyền, phát hiện đột biến trong ung thư, nghiên cứu tiến hóa, dịch tễ học gen và phân tích vi sinh vật. Công nghệ này đã phát triển nhanh chóng nhờ sự giảm mạnh của chi phí giải trình tự và sự cải tiến trong năng lực xử lý dữ liệu.

Nguyên lý và quy trình kỹ thuật

Giải trình tự toàn bộ gen được thực hiện thông qua một chuỗi các bước chuẩn hóa, từ chuẩn bị mẫu đến phân tích dữ liệu. Quá trình này có thể được thực hiện bằng các nền tảng công nghệ khác nhau, phổ biến nhất là Illumina (short-read), PacBio và Oxford Nanopore (long-read), tùy thuộc vào mục tiêu nghiên cứu.

Quy trình kỹ thuật cơ bản gồm các bước sau:

  1. Chiết tách DNA chất lượng cao từ mẫu sinh học (máu, mô, nước bọt...)
  2. Cắt nhỏ DNA thành các đoạn ngắn hoặc dài (tùy nền tảng sử dụng)
  3. Gắn đoạn chỉ thị (adapter) vào hai đầu mỗi đoạn DNA
  4. Thực hiện phản ứng khuếch đại nếu cần
  5. Trình tự hóa DNA bằng máy giải trình tự
  6. Lắp ráp trình tự, loại bỏ nhiễu, phân tích dữ liệu tin sinh học

Bảng dưới đây so sánh ba nền tảng phổ biến trong giải trình tự toàn bộ gen:

Nền tảng Độ dài đọc Ưu điểm Nhược điểm
Illumina ~150 bp Độ chính xác cao, chi phí thấp Khó phân tích vùng lặp và tái sắp xếp lớn
PacBio >10.000 bp Giải trình tự dài, hỗ trợ phát hiện đột biến cấu trúc Chi phí cao, lỗi đọc thô cần hiệu chỉnh
Oxford Nanopore ~1.000 đến >100.000 bp Thiết bị nhỏ gọn, thời gian phản hồi nhanh Độ chính xác chưa ổn định, cần cải tiến thuật toán

Sau khi giải mã trình tự DNA, dữ liệu được xử lý thông qua các pipeline tin sinh học để so sánh với hệ gen tham chiếu, phát hiện các biến thể di truyền như SNPs, INDELs, SVs và CNVs.

Phân biệt với các kỹ thuật giải trình tự khác

WGS là phương pháp toàn diện nhất trong các kỹ thuật giải trình tự gen, vượt trội về độ phủ và khả năng phát hiện biến thể. Tuy nhiên, chi phí cao và yêu cầu xử lý dữ liệu lớn khiến WGS thường được cân nhắc cùng với các phương pháp khác tùy theo mục tiêu cụ thể.

Các phương pháp so sánh với WGS:

  • Giải trình tự exome (Whole Exome Sequencing – WES): Giải mã khoảng 1–2% hệ gen, tập trung vào các vùng mã hóa protein. Thích hợp cho nghiên cứu bệnh di truyền và có chi phí thấp hơn WGS.
  • Giải trình tự vùng đích (Targeted Sequencing): Phân tích một số gen hoặc vùng cụ thể có liên quan đến bệnh hoặc chức năng sinh học đã biết.

Bảng so sánh các kỹ thuật:

Phương pháp Vùng phân tích Khả năng phát hiện đột biến Chi phí
WGS Toàn bộ hệ gen SNPs, INDELs, SVs, CNVs, vùng điều hòa Cao
WES Chỉ exon (1–2%) Đột biến gen mã hóa Trung bình
Targeted Vài chục – vài trăm gen Đột biến đã biết Thấp

Việc lựa chọn giữa WGS, WES hay giải trình tự vùng đích phụ thuộc vào độ rộng phân tích cần thiết, độ nhạy mong muốn và khả năng chi trả trong bối cảnh nghiên cứu hay lâm sàng.

Ứng dụng trong y học cá thể hóa

Giải trình tự toàn bộ gen là công cụ nền tảng của y học chính xác, cho phép thiết lập bản đồ di truyền của từng cá nhân, từ đó đưa ra các quyết định y tế mang tính cá nhân hóa về phòng bệnh, chẩn đoán và điều trị.

Các ứng dụng thực tế trong lâm sàng gồm:

  • Xác định đột biến gây bệnh di truyền (như Huntington, bệnh Wilson, rối loạn chuyển hóa bẩm sinh...)
  • Chọn thuốc phù hợp với kiểu gen chuyển hóa (dược di truyền học – pharmacogenomics)
  • Dự đoán nguy cơ mắc bệnh phức tạp như tim mạch, tiểu đường, Alzheimer dựa trên đa biến thể di truyền

Ví dụ, người mang biến thể trong gen CYP2C19 có thể không đáp ứng với clopidogrel – một thuốc chống kết tập tiểu cầu phổ biến. Việc biết thông tin này trước khi điều trị sẽ giúp bác sĩ chọn lựa thuốc thay thế phù hợp hơn.

WGS cũng đang được ứng dụng trong tầm soát trước sinh (non-invasive prenatal testing – NIPT nâng cao) và kiểm tra trước khi mang thai (carrier screening) để phát hiện các gen bệnh có thể di truyền cho con cái.

Ứng dụng trong nghiên cứu và phát hiện bệnh hiếm

Giải trình tự toàn bộ gen đang trở thành công cụ then chốt trong việc chẩn đoán các bệnh hiếm có nguồn gốc di truyền. Nhiều bệnh nhân trải qua "cuộc hành trình chẩn đoán" kéo dài nhiều năm, với nhiều xét nghiệm không xác định được nguyên nhân. WGS giúp giải quyết những ca lâm sàng khó, khi các phương pháp truyền thống như giải trình tự exome hoặc xét nghiệm mục tiêu không phát hiện được bất thường.

WGS có thể phát hiện được:

  • Đột biến ở vùng điều hòa gen hoặc vùng intron sâu
  • Biến thể cấu trúc lớn như mất đoạn, đảo đoạn, nhân đoạn, chuyển đoạn
  • Đột biến lặp lại (repeat expansion), khó phát hiện bằng kỹ thuật thông thường

Trong một nghiên cứu của New England Journal of Medicine, WGS đã giúp tăng tỷ lệ chẩn đoán bệnh hiếm từ 25% lên 41% so với WES, đặc biệt trong các bệnh thần kinh, rối loạn phát triển và bệnh lý chuyển hóa.

Vai trò trong nghiên cứu ung thư

WGS đang được ứng dụng mạnh mẽ trong ung thư học, giúp phân tích toàn bộ bộ gen của tế bào ung thư và so sánh với mô lành. Phân tích này cung cấp cái nhìn toàn diện về các biến thể somatic và germline, từ đó xác định được cơ chế sinh ung và các đột biến có thể tác động đến lựa chọn điều trị.

Các ứng dụng chính trong ung thư học bao gồm:

  • Phát hiện đột biến đặc hiệu (như BRAF, EGFR, KRAS)
  • Phân tích toàn bộ tín hiệu đột biến để xây dựng “mẫu hình đột biến” (mutational signature)
  • Đánh giá mức độ mất ổn định vi vệ tinh (MSI), gánh nặng đột biến (TMB) – yếu tố dự đoán đáp ứng miễn dịch

Theo National Cancer Institute, WGS có khả năng xác định các điểm đích điều trị tiềm năng trong ung thư kháng trị và hỗ trợ phân loại phân nhóm chính xác trong bệnh lý huyết học ác tính như leukemia và lymphoma.

Ưu điểm và hạn chế

WGS là công cụ toàn diện nhất hiện nay trong lĩnh vực di truyền học và y học cá thể hóa. Tuy nhiên, kỹ thuật này cũng có những giới hạn nhất định.

Ưu điểm:

  • Giải trình tự toàn bộ hệ gen, không bỏ sót bất kỳ vùng nào
  • Phát hiện được cả đột biến nhỏ và bất thường cấu trúc lớn
  • Phù hợp với các bệnh đa yếu tố và chưa rõ gen bệnh

Hạn chế:

  • Chi phí cao hơn các phương pháp khác (dù đang giảm mạnh)
  • Dữ liệu lớn, cần hệ thống phân tích và lưu trữ chuyên biệt
  • Khó giải thích các biến thể không rõ ý nghĩa (VUS – Variants of Uncertain Significance)
  • Vấn đề đạo đức và bảo mật thông tin di truyền

Các tổ chức như GA4GH đang xây dựng khung pháp lý và kỹ thuật để quản lý, chia sẻ và bảo vệ dữ liệu hệ gen trong nghiên cứu và y tế.

Các tiêu chí đánh giá chất lượng WGS

Để WGS đạt được giá trị phân tích và lâm sàng, cần đảm bảo nhiều chỉ số kỹ thuật liên quan đến dữ liệu. Ba tiêu chí quan trọng nhất là độ phủ, độ dài đọc và độ chính xác.

  • Độ phủ (Coverage): Được hiểu là số lần mỗi base được đọc lại trong quá trình giải trình tự. Với WGS lâm sàng, yêu cầu ≥ 30x là chuẩn để phát hiện đột biến với độ tin cậy cao.
  • Độ dài đọc (Read length): Illumina sử dụng đọc ngắn (~150 bp), trong khi PacBio hoặc Nanopore có thể đọc đến vài chục nghìn bp.
  • Độ chính xác đọc (Base calling accuracy): Cần đạt ≥ 99.9% để đảm bảo độ tin cậy trong phân tích.

Công thức tính độ phủ trung bình:

Coverage=N×LGCoverage = \frac{N \times L}{G}

Trong đó: NN là số đoạn đọc, LL là độ dài đọc, GG là kích thước hệ gen người (~3.2 × 10^9 bp). Ví dụ: 600 triệu đoạn đọc dài 150 bp sẽ tạo ra độ phủ trung bình ~28x.

Xu hướng và tương lai của giải trình tự toàn bộ gen

Chi phí WGS đã giảm từ hơn 100 triệu USD (2003) xuống dưới 1.000 USD cho mỗi người, nhờ vào sự tiến bộ công nghệ và tối ưu hóa quy trình. Xu hướng tương lai đang hướng đến ứng dụng đại trà WGS trong chẩn đoán, tầm soát và dự phòng.

Các ứng dụng dự kiến trong tương lai gần:

  • Giải trình tự hệ gen sơ sinh để tầm soát bệnh bẩm sinh (newborn genomic screening)
  • WGS định kỳ trong y tế dự phòng cá nhân hóa
  • Phân tích hệ gen cộng đồng phục vụ dịch tễ học và điều chỉnh chính sách y tế

WGS còn được kỳ vọng tích hợp với các dữ liệu “multi-omics” như transcriptomics, proteomics, metabolomics để hiểu sâu hơn về cơ chế bệnh sinh và đáp ứng sinh học. Trí tuệ nhân tạo (AI) và học máy (machine learning) đang ngày càng được tích hợp để tự động phân tích và diễn giải dữ liệu WGS một cách nhanh và chính xác.

Tài liệu tham khảo

  1. National Human Genome Research Institute. (2023). Genomics and Medicine. Truy cập từ: genome.gov
  2. National Cancer Institute. (2023). Genomics in Cancer. Truy cập từ: cancer.gov
  3. Nature Medicine. (2020). Whole-genome sequencing in rare disease diagnosis. Truy cập từ: nature.com
  4. Illumina Inc. (2023). Whole Genome Sequencing Overview. Truy cập từ: illumina.com
  5. Oxford Nanopore Technologies. (2023). Nanopore-based Sequencing. Truy cập từ: nanoporetech.com
  6. GenomeWeb. (2024). Sequencing and Genomics News. Truy cập từ: genomeweb.com
  7. Global Alliance for Genomics and Health (GA4GH). (2023). Framework for Responsible Sharing of Genomic Data. Truy cập từ: ga4gh.org

Các bài báo, nghiên cứu, công bố khoa học về chủ đề giải trình tự toàn bộ gen:

ỨNG DỤNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ TOÀN BỘ VÙNG GEN MÃ HÓA TRONG VIỆC XÁC ĐỊNH SƠ BỘ BIẾN THỂ DI TRUYỀN Ở BỆNH NHÂN MẮC DỊ TẬT VAN TIM BẨM SINH
Tạp chí khoa học Trường Đại học Mở Hà Nội - - Trang - 2022
Dị tật van tim bẩm sinh đặc trưng bởi một hoặc nhiều van tim phát triển bất thường. Có một số nguyên nhân phổ biến gây ra bệnh như nhiễm độc và nhiễm bệnh trong thời gian thai kỳ đặc biệt là do di truyền. Giải trình tự toàn bộ vùng gen mã hóa cho phép xác định biến thể di truyền trên đồng thời nhiều gen đươc coi là phương pháp thích hợp trong nghiên cứu di truyền dị tật van tim bẩm sinh. Nghiên cứ...... hiện toàn bộ
#Dị tật van tim bẩm sinh #đột biến gen #giải trình tự toàn bộ vùng mã hóa #giải trình tự thế hệ mới #tin sinh học
Ứng dụng công cụ tin sinh AMROMICS vào phân tích tự động dữ liệu giải trình tự toàn bộ hệ gen vi khuẩn
TẠP CHÍ Y DƯỢC LÂM SÀNG 108 - - 2022
Mục tiêu: Nghiên cứu kết quả bước đầu ứng dụng công cụ tin sinh AMROMICS trong phân tích tự động hệ gen của vi khuẩn kháng kháng sinh. Đối tượng và phương pháp: Phân tích toàn bộ hệ gen của 14 chủng vi khuẩn E. coli và chủng E. coli K-12 MG1655 được công bố trên cơ sở dữ liệu NCBI bằng công cụ tin sinh AMROMICS. Kết quả: Công cụ tự động phân tích toàn bộ hệ gen của 15 mẫu vi khuẩn trong thời gian ...... hiện toàn bộ
#AMROMICS #phân tích giải trình tự #toàn bộ hệ gen #vi khuẩn #kháng kháng sinh
Giải mã đồng thời bộ gen của các sinh vật cộng sinh và vật chủ của chúng Dịch bởi AI
Symbiosis - Tập 55 - Trang 119-126 - 2012
Kỹ thuật giải trình tự thế hệ thứ hai đã cho phép giải trình tự các bộ gen cần thiết ngay cả đối với những nhóm nghiên cứu nhỏ. Tuy nhiên, việc thu thập các văn hóa sạch riêng biệt và các mẫu vô tính hoặc tự nghiệm của các sinh vật đa bào và các vi khuẩn cộng sinh của chúng thường gặp khó khăn. Trong bài báo này, chúng tôi trình bày một quy trình tính toán để tách biệt DNA của sinh vật đa bào và v...... hiện toàn bộ
#giải trình tự thế hệ thứ hai #sinh vật đa bào #vi khuẩn cộng sinh #quy trình tính toán #DNA #hệ sinh thái cộng sinh
Tại sao bạn lại tự đánh mình? Chẩn đoán tự miễn đơn gen bằng giải trình tự toàn bộ exome Dịch bởi AI
Journal of Genetics - Tập 102 - Trang 1-7 - 2023
Các rối loạn bẩm sinh của miễn dịch có thể xuất hiện với tự miễn dịch và tự viêm như những biểu hiện lâm sàng đặc trưng. Chúng tôi đã đặt mục tiêu xác định nguyên nhân đơn gen tiềm ẩn của các rối loạn tự miễn ở 26 bệnh nhân từ một bệnh viện nhi khoa tham chiếu tại Mexico thông qua giải trình tự toàn bộ exome. Chúng tôi đã chọn lọc cụ thể những bệnh nhân có tiền sử gia đình mắc các bệnh tự miễn, tr...... hiện toàn bộ
#tự miễn dịch #giải trình tự exome #rối loạn bẩm sinh của miễn dịch #biến thể di truyền #bệnh tự miễn
Xác định các đột biến MECP2 liên quan đến tự kỷ bằng cách giải trình tự toàn bộ exome và xác thực chức năng Dịch bởi AI
Molecular Autism - Tập 8 - Trang 1-10 - 2017
Protein liên kết methyl-CpG-2 (MeCP2) là một nghiên cứu quan trọng trong sự phát triển thần kinh. Việc mất hoặc tăng chức năng đều dẫn đến các rối loạn phát triển thần kinh nghiêm trọng, chẳng hạn như hội chứng Rett (RTT) và rối loạn phổ tự kỷ (ASD). Chúng tôi đã tiến hành sàng lọc các đột biến MECP2 ở bệnh nhân bị ASD và xác định xem các đột biến liên quan đến tự kỷ này có thể làm suy giảm chức n...... hiện toàn bộ
#MECP2 #tự kỷ #giải trình tự toàn bộ exome #rối loạn phát triển thần kinh #đột biến gene
PaCBAM: xử lý nhanh và có thể mở rộng dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu Dịch bởi AI
Springer Science and Business Media LLC - Tập 20 - Trang 1-5 - 2019
Việc thẩm tra dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu (NGS) đang ngày càng trở thành phương pháp ưa chuộng cho việc khám phá các nhóm đông người trong bối cảnh nghiên cứu, và quan trọng hơn là trong ngữ cảnh y học chính xác. Việc truy xuất và xử lý dữ liệu mức độ gen và dữ liệu vị trí nucleotide đơn lẻ vẫn là những trở ngại chính trong phân tích dữ liệu NGS. Do đó, cần thiết p...... hiện toàn bộ
#Giải trình tự toàn bộ exon #giải trình tự mục tiêu #NGS #xử lý dữ liệu gen #PaCBAM #phân tích dữ liệu #y học chính xác
Giải trình tự toàn bộ vùng gen biểu hiện phát hiện đột biến gen CYBB gây u hạt mạn tính
Tạp chí Nghiên cứu Y học - - 2021
Bệnh u hạt mạn tính  là một nhóm các rối loạn di truyền không đồng nhất đặc trưng bởi khiếm khuyết của hệ thống enzymenicotinamide-adenine dinucleotide phosphate  oxidase. Bệnh thường được chẩn đoán ở trẻ nhỏ với biểu hiện nhiễm trùng nấm hoặc vi khuẩn nặng nguy hiểm đến tính mạng. Nguyên nhân là do đột biến gen, có thể di truyền liên kết nhiễm sắc thể X hoặc di truyền lặn nhiễm sắc thể ...... hiện toàn bộ
#u hạt mạn tính #đột biến gen CYBB
Phân tích toàn bộ hệ gen về biểu hiện lncRNA liên quan đến tính kháng xạ trong ung thư vòm họng thông qua giải trình tự gen thế hệ mới Dịch bởi AI
BMC Cancer - Tập 16 - Trang 1-11 - 2016
Tính kháng xạ là một trong những yếu tố chính hạn chế hiệu quả điều trị và tiên lượng của bệnh nhân mắc ung thư vòm họng (NPC). Các bằng chứng tích lũy đã chỉ ra rằng sự biểu hiện bất thường của RNA không mã hóa dài (lncRNAs) góp phần vào tiến triển của ung thư. Do đó, trong nghiên cứu này, chúng tôi đã xác định các lncRNAs liên quan đến tính kháng xạ trong NPC. Các hồ sơ biểu hiện khác biệt của l...... hiện toàn bộ
#ung thư vòm họng #RNA không mã hóa dài #tính kháng xạ #giải trình tự gen thế hệ mới #sinh học thông tin
1. Xác định biến thể gen liên quan đến kiểu hình ở trẻ em mắc bệnh tim bẩm sinh một tâm thất chức năng
Tạp chí Nghiên cứu Y học - Tập 189 Số 4 - Trang 1-20 - 2025
Bệnh tim bẩm sinh một tâm thất chức năng (FSV) là một bệnh tim bẩm sinh (CHD) phức tạp bao gồm nhiều khiếm khuyết có mức độ di truyền tương đối cao và nguy cơ tái phát ở anh chị em ruột. Nguyên nhân đa yếu tố của FSV đặt ra thách thức trong việc xác định rõ ràng các yếu tố gây bệnh cụ thể và lập kế...... hiện toàn bộ
#Bệnh tim bẩm sinh (CHD) #Bệnh tim một tâm thất chức năng (FSV) #Biến thể gen #Giải trình tự toàn bộ vùng gen mã hóa (WES) #người bệnh Việt Nam
Tổng số: 36   
  • 1
  • 2
  • 3
  • 4